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Data Mining іп the service of птар 
Проблема 


Мир не стоит не месте, все развивается, сетевые сканеры в 
том числе. Начиная от дедушки птар 1.0 (September 1, 1997), 
сканеры развиваются в раличных направлениях. 


e Сканирование всего интернета (zmap) 

е Сканирование уязвимостей в сервисах (птар scripting 
engine и другие коммерческие сканеры безопаности) 

е Интегрированный ТСР стек (polarbear from ІОАсііуе) 
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Но сканирования обнаруживаются IDS/IPS 


www.zeronights.org 


АКСА LIU dE 
| Data Mining in the service of nmap 


Обход 


Сканирование через сторонние сервисы (ftp bounce, proxy) 
Уязвимости в самом IDS/IPS 

Всякие сетевые хитрости (https://nmap.org/book/man- 
bypass-firewalls-ids.html) 

Сканировать медленнее чем [0$ хранит историю 
Рассмотрим именно такой подход сканирования с 
задержками, мы хотим его сделать эффективнее 
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Как найти максимальное количество 
портов за минимальное количество 
запросов? 
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Internet Census 2012 


http://internetcensus2012.bitbucket.org 

420K взломанных домашних маршрутизаторов (пароли no 
умолчанию) 

Просканировали весь интернет! 

Dataset: 9TB of raw logfiles (500Gb in zpaq) 
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460 Million reachable IPv4 addresses observed from June 2012 to October 2012 using ICMP Ping requests and Port Scans. 


Source: Carna Botnet 
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Методика 


е На основе данных о всех хостах в интернете строим 
оракул, который будет предсказывать наиболее вероятные 
порты 

ө Идея очень проста: порты не встречаются сами по себе, 
они встречаются группами, так давайте хранить не список 
самых вероятных портов, а список самых вероятных групп 
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Методика 


e [lo сути группы соответствуют различным классам сетевых 
устройств/сервисов 

е Если нашли открытые порты X,Y и закрытый 7, TO 
вероятнее всего будут открыты порты из групп где есть 
порты X или Y, и нет Z 
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Методика 


е Сначала мы пытались применить всякие умные алгоритмы 
и machine learning, делая вид, что умеем это 

е Но дерево решений для сканирования будет 
экспоненциального размера, значит, его построение тоже 
экспоненциально 

е Алгоритмы классификации не в тему 
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Методика 


е Что еще можно? Можно пробовать кластеризовать 
результаты скана и получить классы сервисов (“сайт”, 
“циска”, ‘винда’, ...) 

ө Проблема: в датасете интернет-скана много МАТ-узлов, 
отравляющих обучение 

ө Проблема: в датасете много зафаерволенных хостов, в 


которых виден только порт 80 
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Методика 


ө Для кластеризации нужно метрическое пространство 
Можно взять какой-нибудь simhash, или можно взять длину 
LCS, которая динамически вычисляется за произведение 
длин последовательностей 

Но у нас около 10^7 уникальных последовательностей, а 
подходящая кластеризация работает не лучше чем за 
квадрат 

К тому же из МАТ-последовательностей надо вычленять 
разумные подпоследовательности портов 
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Методика 


e Keep It Simple, Stupid! 

е Давайте просто сортировать статистику =) 

е В качестве базовой статистики, по которой начинаем 
сканировать без предварительных знаний, для начала 
возьмём топ портов 
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Сколько открытых портов B интернете? 
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TOP13 самых встречаемых групп 
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TOP13 самых встречаемых групп 
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Data Mining іп the service of птар 
Чем плох NMap? 


ө Чем плох ММар? Много чем, там много наследия прошлого 
ө Главное - он медленный 


е По умолчанию ММар сканит по топу портов (4243 порта), 
при полном наборе сканит случайным образом 
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Результаты 


ө Пока что с лобовым алгоритмом и предварительной статой 
уже получилось ускорение на 42% относительно ММар 

ө Статистику измеряли путём имитации сканирования 

ө При этом сравнивалось, за какое количество запросов наш 
алгоритм находит столько же портов, сколько всего нашел 
ММар (по умолчанию он не ищет дальше своего топа) 
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Результаты 
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Планы Ha будущее 


Патч для птар, изменяемая стратегия сканирования 
Данные по интранету (внутренние пентесты) 

Компактный словарь 

(сейчас 150Мб и самый полный 666Мб) 

Более точная кластеризация на основе данных протокола 
(Тип сервиса, версия, ОС и т.д.) 
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Вопросы 
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